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Resumen 

El pronóstico de caudales de un río es de gran importancia para el 
desarrollo de sistemas de alerta temprana. Los algoritmos de inteligencia 
artificial han demostrado ser una herramienta eficaz en la modelación 
hidrológica basado en datos, pues permiten establecer relaciones entre 
los datos de entrada y salida de una cuenca hidrográfica, y así tomar 
decisiones basado en datos. Este artículo investiga la aplicabilidad del 
algoritmo k vecino más cercano (KNN) para el pronóstico de caudales 
medios diarios del río Ramis en la estación hidrométrica Ramis. Como 
insumo de entrada al algoritmo de aprendizaje automático KNN utilizamos 
un conjunto de datos de precipitación media de la cuenca y caudal medio 
diario de estaciones hidrometeorológicas con varios rezagos. El 
rendimiento del algoritmo KNN se evaluó cuantitativamente con métricas 
de habilidad hidrológica, como el error porcentual absoluto medio (MAPE), 
anomalía del coeficiente de correlación (ACC), eficiencia de Nash-Sutcliffe 
(NSEB), eficiencia de Kling-Gupta (KGE') y ángulo espectral (SA). Los 
resultados para realizar pronóstico de caudales del río Ramis con el 
algoritmo de aprendizaje automático KNN alcanzaron altos niveles de 
confiabilidad, sobre todo con rezagos de caudales de uno y dos días, y 
precipitación con tres días. El algoritmo utilizado es simple, pero robusto 
para efectuar pronósticos de caudales a corto plazo, y puede ser integrado 
como una alternativa para el fortalecimiento del pronóstico hidrológico 


diario del río Ramis. 
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Abstract 

The forecast of river stream flows is of significant importance for the 
development of early warning systems. Artificial intelligence algorithms 
have proven to be an effective tool in hydrological modeling data-driven, 
since they allow establishing relationships between input and output data 
of a watershed and thus make decisions data-driven. This article 
investigates the applicability of the k-nearest neighbor (KNN) algorithm 
for forecasting the mean daily flows of the Ramis river, at the Ramis 
hydrometric station. As input to the KNN machine learning algorithm, we 
used a data set of mean basin precipitation and mean daily flow from 
hydrometeorological stations with various lags. The performance of the 
KNN algorithm was quantitatively evaluated with hydrological ability 
metrics such as mean absolute percentage error (MAPE), anomaly 
correlation coefficient (ACC), Nash-Sutcliffe efficiency (NSE), Kling-Gupta 
efficiency (KGE') and the spectral angle (SA). The results for forecasting 
the flows of the Ramis river with the k-nearest neighbor machine learning 
algorithm reached high levels of reliability with flow lags of one and two 
days and precipitation with three days. The algorithm used is simple but 
robust to make short-term flow forecasts and can be integrated as an 
alternative to strengthen the daily hydrological forecast of the Ramis 


river. 
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Introducción 


Las inundaciones inducidas por el exceso de precipitaciones y desborde 
de ríos son peligros naturales comunes en las regiones de Perú. La 
frecuencia con la que se presentan en periodos de avenida provoca 
pérdidas significativas y daños a la propiedad. Probablemente este 
fenómeno se vuelva más frecuente con el cambio climático, y los 
pronósticos confiables y precisos de caudales de un río ayudarían a 
minimizar los daños asociados con las inundaciones. Los pronósticos 
precisos a corto plazo (horario y diario) son importantes para predecir 
inundaciones y desarrollar sistemas de alerta temprana (Mundher, 
Ahmed, 8 Abdulmohsin, 2015). Un pronóstico preciso de caudales es 
crítico para el control óptimo de inundaciones (Solomatine 8 Xue, 2004). 

El uso de modelos basados en procesos se ha convertido en una 


herramienta esencial para estudiar la respuesta de los regímenes 
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hidrológicos (Madsen, 2000; Mendez 8: Calvo-Valverde, 2016), pero una 
implementación suficientemente representativa y precisa puede llevar a 
invertir mucho tiempo y costo, además de calibrar una gran cantidad de 
parámetros. Desde la década de 1930 se han desarrollado numerosos 
modelos de lluvia escorrentía y todo el proceso físico del ciclo hidrológico 
se formula matemáticamente en modelos conceptuales que componen 
gran cantidad de parámetros (Tokar 8 Johnson, 1999). En un contexto de 
modelado hidrológico basado en datos “Todos los modelos están 
equivocados y algunos son útiles”; esta cita es significativa debido a la 
presencia de diferentes consultas no resueltas y suposiciones deliberadas 
(Remesan €: Mathew, 2015). 

Los modelos basados en datos, en especial las técnicas de 
aprendizaje automático (ML), no requieren ecuaciones físicas complejas 
y supuestos parámetros que necesitan los modelos basados en procesos. 
Debido a la simplicidad en su implementación, algoritmos de ML y 
predicción más precisa se han aplicado de manera amplia en el 
modelado/pronóstico hidrológico (Mundher et a/., 2016; Remesan 8 
Mathew, 2015; Solomatine 8 Xue, 2004), logrando buenos rendimientos 
inclusive con pequeños conjuntos de datos (Veintimilla-Reyes, Cisneros, 
e: Vanegas, 2016). Los modelos basados en datos o modelos de ML son 
capaces de realizar pronósticos de lluvia escorrentía incluso para un 
sistema bastante complejo (Solomatine 8 Xue, 2004). 

El ML es considerado un subcampo de la inteligencia artificial (IA) y 
se divide en tres clases principales: aprendizaje supervisado, aprendizaje 


no supervisado y aprendizaje por refuerzo (Igual 8 Seguí, 2017). Una 
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revisión de las técnicas de IA, en específico de algoritmos supervisados 
de ML han demostrado con éxito su aplicabilidad en la predicción de flujo 
urbano (Xie et a/., 2020); predicción de inundaciones (Mosavi, Ozturk, 8 
Chau, 2018; Solomatine € Xue, 2004); pronóstico de caudales diarios 
(Mundher et a/., 2015); y modelización y pronóstico de caudales medios 
mensuales (Laqui, 2010; Lujano, Lujano, Quispe, € Lujano, 2014; 
Mundher et al., 2016). Del mismo modo, también se han aplicado en la 
previsión de energía eólica basada en datos diarios de velocidad del viento 
(Demolli, Dokuz, HEcemis, 8 Gokcek, 2019); estimación de la 
evapotranspiración (Granata, 2019; Xu et a/., 2018); predicciones hidro- 
climatológicas (Thakur, Kalra, Ahmad, 8 Lamb, 2020); modelado de 
deslizamientos de tierra (Liu et al., 2021); estimación de la 
evapotranspiración de referencia (Alipour, Yarahmadi, £ Mahdavi, 2014; 
Antonopoulos 8 Antonopoulos, 2017; Mehdizadeh, 2018); en el modelado 
de evaluación de riesgo de inundación (Wang et a/., 2015), así como para 
modelar la susceptibilidad a deslizamientos inducidos por la lluvia (Dou et 
al., 2019); el modelado lluvia-escorrentía (Tokar 8 Johnson, 1999); y 
configuración de relaciones altura-caudal (Jain € Chalisgaonkar, 2000). 
En referencia a KNN aplicado a variables de recursos hídricos, 
encontramos investigaciones aplicadas al pronóstico de precipitaciones 
(Huang, Lin, Huang, € Xing, 2017), predicciones de conjuntos de 
múltiples modelos de precipitación y temperatura (Ahmed et a/., 2020), 
para la previsión de inundaciones en tiempo real (Liu et a/., 2020), como 


modelo generador de clima (Sharif 8 Burn, 2007), así como para 
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predicción de la energía eólica (Yesilbudak, Sagiroglu, € Colak, 2017) y 
la completación de datos (Kowarik € Templ, 2016). 

Dado que los algoritmos de ML son un enfoque prometedor, este 
documento tuvo como objetivo evaluar el algoritmo de aprendizaje 
automático k vecino más cercano para el pronóstico de caudales del río 
Ramis, basado en datos conocidos del sistema hidrológico (caudales y 
precipitación), a fin de contribuir en el desarrollo de sistemas de alerta 


temprana y fortalecimiento del pronóstico hidrológico. 


Materiales y métodos 


Área de estudio 


La zona en la que se realizó este estudio es la cuenca del río Ramis 
(14 769.62 km), que se extiende desde la estación hidrométrica Ramis 
hasta la cordillera oriental en el departamento de Puno, Perú (Figura 1) y 
es la unidad hidrográfica con mayor aporte de caudales al lago navegable 
más alto del mundo (Titicaca). La altitud de la cuenca está comprendida 


entre 3812 y 5 749 metros sobre el nivel del mar (msnm), con una 
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pendiente promedio de 22 % y una longitud del río principal de unos 321 
km. Según la clasificación climática del Perú (SENAMHI, 2020), la cuenca 
en estudio tiene un tipo de clima predominante lluvioso, con otoño e 
invierno seco. La precipitación promedio multianual para la cuenca es de 
700.1 mm (Fernández, 2017), presentándose mayores acumulados de 
lluvia en verano (diciembre-febrero), con un otoño e invierno seco que 
hacen la diferencia al periodo de estiaje. El tipo de cobertura de suelo, 
según la clasificación anual del programa internacional de geósfera- 
biosfera (IGBP), disponible en Google Earth Engine (GEE), colección de 
imagen ID MODIS/006/MCD120Q1 (Friedl € Sulla-Menashe, 2015), tiene 
un 0.01 % de cobertura de árboles; 96.86 % de pastizales dominados por 
plantas herbáceas (< 2 m); 0.03 % de humedales permanentes; 1.68 % 
de tierras de cultivo; 0.13 % de tierras urbanas y urbanizadas; 0.01 % 
de hielo y nieve permanente; 1.25 % de áreas áridas, y 0.02 % de 


cuerpos de agua. 
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Figura 1. Ubicación del área de estudio. 


Las series temporales diarias de precipitación total en milímetros 
(mm) y caudales medios en metros cúbicos por segundo (m3/s) se 


obtuvieron del Servicio Nacional de Meteorología e Hidrología del Perú 
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(SENAMHD), y el periodo de tiempo utilizado se extiende desde el 01 de 
septiembre de 2005 al 31 de agosto de 2016. La Figura 1 muestra la 
ubicación del área de estudio y la distribución espacial de 14 estaciones 


meteorológicas y una estación hidrométrica. 


K vecino más cercanos (KNN) 


El algoritmo KNN es uno de los algoritmos más simples en el campo del 
ML, la idea es memorizar el conjunto de datos de entrenamiento y luego 
realizar predicciones de cualquier dato nuevo, tomando como referencia 
los datos de sus vecinos más cercanos en el conjunto de entrenamiento 
(Shalev-Shwartz, Science, Ben-David, 8: Science, 2013). Además, KNN es 
un método no paramétrico que puede usarse como clasificador (Gupta 8 
Mittal, 2018) y regresor (Hossny, Magdi, Soliman, € Hossny, 2020). El 
algoritmo no asume ningún tipo de ecuación ni relación funcional entre la 
entrada y la salida (Joshi, 2020): 


de zo) (1) 


donde $ es el valor de salida; y;, el i-ésimo vecino más cercano, y k es el 


número de vecinos más cercanos. 
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Desarrollo del modelo hidrológico basado en datos 


Un paso previo y significativo en algoritmos de ML es la selección de 
características (variables) más importantes, con el fin de obtener un 
modelo predictivo más efectivo y evitar características que no contribuyan 
en el entrenamiento del modelo, y de esta manera disminuir el tiempo de 
entrenamiento, reducir la complejidad del modelo, y decrecer el 
sobreajuste. El uso excesivo de una gran cantidad de características en la 
entrada del modelo conduce a un ajuste perfecto y hace que el modelo 
memorice el conjunto de datos de entrenamiento y, por lo tanto, pierda 
la generalización y obtenga resultados pobres en la etapa de validación 
(Remesan €: Mathew, 2015). 

Existen varias formas de medir la importancia de las características 
(Pedregosa, Weiss, 8 Brucher, 2011; Remesan 8 Mathew, 2015), pero 
nos enfocamos en el coeficiente de correlación de Pearson (Tokar 8 
Johnson, 1999) y el algoritmo de importancia de la característica de 
permutación (Pedregosa et a/., 2011). 

La mejor forma de incorporar características de entrada en un 
modelo basado en datos es tener en cuenta los retardos de la serie de 
datos (Mundher et a/., 2016; Solomatine 8 Xue, 2004; Tokar € Johnson, 
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1999), es así que el procedimiento se basa en desarrollar modelos de 
pronóstico hidrológico que utilizarán memoria, es decir, utilizar valores de 
caudales y precipitaciones retrospectivos para pronosticar el caudal Q, del 
río Ramis. 

Entonces, en primera instancia se han seleccionado las entradas en 
función de un análisis de correlación cruzada entre el conjunto de datos 
de entrada (precipitación y caudal) con varios rezagos y los caudales de 
salida Q, (Remesan 8 Mathew, 2015; Solomatine 8 Xue, 2004; Tokar 8 
Johnson, 1999). Aunque la técnica de correlación de Pearson es una 
técnica adecuada en sistemas lineales, y el proceso de precipitación 
caudal es no lineal (Remesan 8 Mathew, 2015), su uso es habitual y 
popular para seleccionar las entradas apropiadas (Huang €: Foo, 2002), 
pues su fundamento es determinar la fuerza de la relación entre la serie 
de tiempo de entrada y la serie de tiempo de salida con varios rezagos 
(Haugh € Box, 1977). 

En consecuencia, para inferir qué características tienen mayor 
impacto en el pronóstico de caudales utilizamos el algoritmo de 
importancia de permutación, implementado con el modelo predictivo KNN 
con posibles predictores y la característica predicha. El algoritmo de 
importancia de permutación es especialmente útil para estimadores no 
lineales, y se puede calcular en el conjunto de entrenamiento o en el 
conjunto de prueba o validación extendido cuando los datos son tabulares 
y una caída de puntuación del modelo es indicativa de cuánto depende el 
modelo de la característica (Pedregosa et a/., 2011). 


La importancia i, se calcula con: 
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B 1 
y =S= -2k=1 Sk,j (2) 


El algoritmo de importancia de permutación requiere como entrada 
el modelo predictivo ajustado y conjunto de datos (entrenamiento o 
validación). Se calcula el puntaje de referencia s del modelo ajustado con 
el conjunto de datos (para verificar el rendimiento del modelo, se utiliza 
la precisión en un clasificador o R? para un regresor). Para cada 
característica ¡ (columna del conjunto de datos), para cada repetición k 
en 1,...,K barajar de forma aleatoria la columna ¡ del conjunto de datos 
para generar una nueva versión de conjunto de datos, y calcular el 


puntaje s,,, del modelo ajustado con la nueva versión del conjunto de 


datos y quedarnos con K casos. 


Modelado hidrológico basado en datos 


Los datos de entrenamiento deben ser lo suficientemente grandes como 
para contener las características de la cuenca; por el contrario, un 
conjunto de datos insuficiente no permitiría al modelo generalizar los 


patrones en fenómenos físicos (Tokar 8: Johnson, 1999). 
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El proceso de precipitación caudal se modeló utilizando el algoritmo 
KNN, representando el caudal actual del río Q,, en función de las 
características más importantes. La selección del conjunto de datos de 
entrenamiento (calibración) consideró el 70 % (2 808) del total de datos 
(4 012), mientras que el restante 30 % (1 204) se tomó en cuenta para 
la etapa de prueba (validación). Rusli, Yudianto y Liu (2015) indican que 
la etapa de calibración se realiza para comprender la correlación que 
existe entre los parámetros del modelo y la respuesta hidrológica de la 
cuenca y, asimismo, lograr la mejor concordancia entre los caudales 
observados y simulados. Para obtener el mejor modelo (Ecuación (1)) de 
pronóstico hidrológico se entrenaron y probaron las configuraciones con 
las características más importantes (uso de diferentes rezagos/variables 
para modelar Q,, determinados mediante la matriz de correlación y el 


algoritmo de importancia de permutación. 


Métricas de bondad de ajuste 


La efectividad de los modelos se evaluó mediante cinco métricas de 
bondad de ajuste diferente (Tabla 1): error porcentual absoluto medio 


(MAPE), coeficiente de correlación de anomalías (ACC), eficiencia de 
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Nash-Sutcliffe (NSE), eficiencia de KGE' (Kling, Fuchs, 8 Paulin, 2012) y 
ángulo espectral (SA). 


Tabla 1. Métricas de bondad de ajuste. 


Error porcentual 
absoluto medio 
(MAPE) 
Coeficiente de 


a 1 (zas; — $) (0, = 0 
correlación de acc = 128: (010) 
n 


090s 


anomalías (ACC) 


Eficiencia de Nash- a 71 (S¡ — 0? 
Sutcliffe (NSE) 0 ES, - 0 


KGE' = y (r — 1)? + (f — 1)? + (y - 1)? 
Eficiencia de Kling- ( dl 1 


Os 
Gupta (KGE") p=t, pa /us 
Mo CVo a 


Angulo espectral (S, 0) ) 
(SA) IISII21O112 


lVariables: S es el valor simulado; S es la media de los valores simulados; O es el valor 


SA = arcos 


observado; O es la media de los valores observados; o es la desviación estándar en 
m3/s; r es el coeficiente de correlación entre el valor simulado y observado 
(adimensional); f es la razón de sesgo (adimensional); y es la razón de variabilidad 
(adimensional); u es el valor medio en m*/s; CV es el coeficiente de variación 
(adimensional), y los subíndices s y o representan valores observados y simulados 


respectivamente. 
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MAPE calcula el error porcentual absoluto medio y su rango es 0 % 
< MAPE < inf, donde O % indica menor error porcentual y por el contrario 
indican un error porcentual mayor en los datos. Así también, ACC es una 
medida común en la verificación de campos espaciales y mide la 
correlación entre el patrón de variación de los valores simulados en 
comparación con los observados, el rango varía -1 < ACC < 1, donde -1 
indica una correlación negativa; 0, aleatoriedad completa, y 1 indica una 
correlación perfecta del patrón de variación de las anomalías. NSE es una 
métrica que usa el valor medio como punto de referencia y el rango puede 
variar de -inf < NSE < 1; mientras el valor se acerca a la unidad es mejor. 
Por otro lado, KGE' (Kling et a/., 2012) es la versión modificada de KGE 
(Gupta, Kling, Yilmaz, €: Martinez, 2009) propuesta para evitar correlación 
cruzada entre las relaciones sesgo y variabilidad; el rango puede variar 
entre -inf < KGE' < 1; valores cercanos a la unidad no indican sesgo. SA 
es una medida atractiva para ser utilizada en la coincidencia de espectros; 
mide el ángulo entre los dos vectores en el hiperespacio e indica qué tan 
bien coincide la forma de la serie simulada y la observada (no la 
magnitud); su rango varía entre -n/2 < SA < n/2 (n = pi), donde valores 
cercanos a cero es mejor. 

Para este proceso utilizamos la IDE de Python Jupyter Notebook y 
el paquete Hydrostats, que contiene las métricas para caracterizar los 
errores entre las series de tiempo simuladas y observadas (Roberts, 


Williams, Jackson, Nelson, € Ames, 2018). 
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Resultados y discusión 


Encontramos que la característica más importante para el pronóstico del 
caudal Q, es el caudal con rezago Q;-_,, con un coeficiente de correlación 
igual a 0.99. A medida que ampliamos el rezago en Q.-_», Q+-3, Qr-ar Qios 
Y Q:-6, el coeficiente de correlación disminuye a 0.96, 0.94, 0.91, 0.90 y 
0.88, respectivamente (Figura 2). Si analizamos la relación existente 
entre precipitación y caudal, la serie de caudal Q. y la serie de 
precipitación con rezago P,_, tienen mayor correlación (r = 0.54) respecto 
a Preis Peor Pros Pes Y Pr-6, con coeficientes de correlación de 0.39, 0.45, 
0.51, 0.53 y 0.52, respectivamente. Si se desarrollara un modelo de 
pronóstico Q, en función de Q+-_», Qr-3, Qr-ar Or-5 Y Qp-6 considerando que 
tienen mayores valores de correlación obtendríamos un modelo complejo 
en el cual se incluirian características que no contribuyen al 


entrenamiento del modelo. 
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Figura 2. Correlaciones cruzadas de Q, con rezagos de precipitación y 


caudal. 
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Entonces, para una selección definitiva de las características 
importantes para el modelo, el análisis de correlación se ha 
complementado mediante la aplicación del algoritmo de importancia de la 
característica de permutación (Figura 3) y se confirma que el caudal con 
rezago Q;,-, tiene un mayor puntaje (0.779) y es la característica más 
relevante para pronosticar Q,, seguido de Q,_, (0.163) y las características 
con menos importancia Q;¿_3 (0.046), Q:¿-4 (0.039), Q¿_s (0.033) y Q:-6 
(0.037). Así también, la precipitación con rezago P,_¿ tuvo un mayor 
puntaje (0.001) respecto a P., Pri, Picos Peras Pes Y Pp-6 con menores 
puntajes de importancia (< 0.001). 

Por tanto, el modelo para el pronóstico de caudales se definió 
mediante una combinación con las características más importantes de 
precipitación y caudal de acuerdo con los resultados del algoritmo de 
importancia de la característica de permutación: 1) Q.= f(Qr-4); 2) 
Qe: f(Qrar Qro); 3) Q1: F(Qreas Pe), Y 4) Qe: F(Qr-a Qr-2) Pr-3), donde Q; es el 
caudal a pronosticar, Q,_, y Q¿+-, son los caudales con rezago de 1 y 2 días, 
mientras que P,_z¿ es la precipitacion media de la cuenca con rezago de 
tres días. Aunque P,_¿ es una característica menos importante respecto a 
Qí-1 Y Qr-2, la consideramos como variable de entrada al modelo, pues 
Pedregosa et al. (2011) indica que las características que se consideran 
de baja importancia, podrían ser muy importantes para un buen modelo 


y podría incrementar el rendimiento del modelo. 


Tecnología y ciencias del agua, ISSN 2007-2422, 


2023, Instituto Mexicano de Tecnología e A . -14-09- 
del Agua. Open Access bajo la licencia CC BY-NC-SA 4.0 Aa) 0002038: DUIE 10 050 adan 0a 


(https: //creativecommons.org/licenses/by-nc-sa/4.0/) 


o) 0) Check for updates 
OPEN ACCESS 
Tecnología y 


CienciaszAgua 


0.8: 


Puntuaciones 
o o o o o o 
N uUJ) += ul [e)] a] 


al 
Al 


Sá 
o 


+ 
a 


Pt-5 
Pt-6 | 


<+ 
Y 
a 


Qt-2 
Qt-3 
Qt-4 
Qt-5 
Qt-6 
Pt-1 
Pt-2 
Pt-3 


Qt-1 


Características/variables 


Figura 3. Puntuaciones de importancia de la característica de 


permutación. 


Los resultados de las métricas de bondad de ajuste para el modelo 
KNN muestran la efectividad para el pronóstico de caudales del río Ramis 
en la estación hidrométrica Ramis (Tabla 2). Las capacidades predictivas 
conducen a valores muy altos de NSE (NSE = 0.96) en la etapa de 
validación, en particular Q;: f(Q¿-,,P,-3) se caracteriza por valores altos de 
ACC = 0.989, NSE = 0.979, KGE' = 0.988, valores de error más bajo 
(MAPE = 6.070 %), y una mejor coincidencia en la forma de la serie 


simulada y observada (SA = 0.113). Q.:f(Q¿-,) es el modelo menos 
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efectivo mostrando valores de ACC = 0.982, NSE = 0.965, KGE' = 0.982, 
valores de error (MAPE = 7.403 %) y una menor coincidencia en la forma 
de las series simuladas y observadas (SA = 0.145). También 
Q:: F(Qí-1, Qro, Pe-3) muestra mejor rendimiento que Q.:f(Q.-1,Q+-2) Y 
Q.: f(Q,-1), caracterizado por un MAPE = 6.230 %, ACC = 0.987, NSE = 
0.975, KGE' = 0.988 y SA = 0.122. Por su parte, Q.: f(Q;-1,Qí-2) Se 
identifica por presentar mejores rendimientos respecto a Q;: f(Q,-,), con 
valores de ACC = 0.985, NSE = 0.972, KGE' = 0.985, valores de error 
(MAPE = 6.546 %), y una similar coincidencia en la forma de la serie 
simulada y observada (SA = 0.129). Cabe señalar que con un caudal con 
rezago de un día y precipitación con tres días de rezago, el modelo de 
pronóstico de caudales muestra un mejor rendimiento respecto a los 
demás modelos. Esta adición de la P,_¿ al modelo se corrobora con 
Pedregosa et al. (2011), que aunque sea una característica considerada 
de baja importancia produce mejores resultados e incrementa el 


rendimiento del modelo. 


Tabla 2. Resultados del rendimiento del algoritmo de KNN - etapa de 


validación. 


Modelo MAPE (%) 


Qt: F(Qr-1, Qt-2) 


Q: F(Qr-1, Pe-3) 0.988 |0.113 
Qi: f(Qi-a Qras Pr-3) 0.988 |0.122 
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Para continuar con una evaluación adicional de los modelos de 
pronóstico de caudales, presentamos una serie de diagramas de 
dispersión (Figura 4), en el que se observa un ajuste casi perfecto entre 
los valores observados y pronosticados con la línea de 45%, sobre todo 
para Q+: £(Q;+-1, P+-3) (Figura 4c), seguido de los demás modelos (Figura 4a, 
4b y 4d). Podemos deducir que el conjunto de datos elegido para entrenar 
el modelo KNN tiene las mismas propiedades estadísticas y por tanto los 
parámetros estimados no afecta de modo significativo en el pronóstico de 
Q, en el periodo de validación; es así que los valores de MAPE, ACC, NSE, 
KGE' y SA son similares en el periodo de entrenamiento y validación. Una 
diferencia significativa en los criterios de evaluación de la bondad de 
ajuste en el conjunto de entrenamiento y validación podría 
corresponderse si el modelo se entrena utilizando un conjunto de datos 
que se desvían enormemente de la situación media y afectan de forma 
significativa el pronóstico en el periodo de prueba (Antonopoulos 8 
Antonopoulos, 2017). Un conjunto de datos de entrenamiento, validación 
y prueba con las mismas propiedades estadísticas ayudan a desarrollar el 


mejor modelo posible (Maier, Jain, Dandy, € Sudheer, 2010). 
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Figura 4. Gráfico de dispersión de caudales simulados y observados. 
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La Figura 5 ilustra los patrones de caudales observados y simulados 
con el algoritmo KNN dentro del periodo de validación. Como se observa, 
los pronósticos basados en datos con KNN pudieron igualar 
estrechamente a los valores reales. El algoritmo KNN es una herramienta 
eficaz para el pronóstico de caudales diarios del río Ramis y tiene la 
ventaja de proporcionar directamente Q, en función de datos pasados, 
reduciendo de esta forma inversión en tiempo y costo que se requiere 
para ¡implementar modelos hidrológicos basados en procesos 


físicos/conceptuales. 
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Figura 5. Hidrograma de series de tiempo observados y simulados con 


el algoritmo KNN-etapa de validación. 
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Conclusiones 


Este estudio se centró en el modelado hidrológico mediante el uso del 
algoritmo KNN, explorando su aplicabilidad para el pronóstico de caudales 
medios diarios del río Ramis. Las características más importantes se 
seleccionaron en una primera instancia mediante el coeficiente de 
correlación de Pearson y se complementaron mediante el algoritmo de 
importancia de las características de permutación. Encontramos que Q;_; 
es la característica más relevante para el pronóstico de caudales Q, del 
río Ramis en la estación hidrométrica Ramis; sin embargo, cuando 
consideramos Q+_, y P.-3 como entrada al modelo, la precisión de KNN se 
incrementa. 

La investigación demuestra que el algoritmo KNN sería un enfoque 
adecuado para el pronóstico de caudales, pudiendo ser integrado como 
una alternativa para el fortalecimiento del pronóstico hidrológico diario e 


implementación en un sistema de alerta temprana. 
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